Fusible SWE: potenciando agentes de software a través del aprendizaje de trayectorias sin problemas y del entrenamiento RLVR consciente de la entropía
Optimiza agentes de software con aprendizaje de trayectorias y entrenamiento RLVR para potenciar su desempeño.